home *** CD-ROM | disk | FTP | other *** search
/ MacWorld 1998 February / Macworld (1998-02).dmg / Serious Demos / KnowledgeMiner 2.1 / Info / Tutorial (text format) < prev    next >
Text File  |  1997-06-29  |  23KB  |  587 lines

  1.                                                                                                                                         KnowledgeMiner Tutorial
  2.                                                                                                Text version the same as the AppleGuide version
  3.  
  4.  
  5. INTRODUCTION
  6. INTRO1
  7.       WELCOME TO KnowledgeMiner
  8.  
  9. This tutorial was designed to help you to quickly open up new possibilities in your daily work using the extraordinary modeling features of KnowledgeMiner. It is an Artificial Intelligence tool which is basically build on the cybernetic principals of self-organization: learning a completely unknown relationship between an output and an input of any given system in an evolutionary way from a very simple organization to an optimal complex one. The main advantages of this inductive approach are:
  10.    • only minimal, uncertain a priori information 
  11.       about the system is required,
  12.    • very fast and effective learning process, also for 
  13.       ordinary PC's,
  14.    • modeling on very short and noisy data samples,
  15.    • output of an optimal complex analytical model,
  16.    • transparent explanation component.
  17. These advantages over statistical methods as well as over neural networks makes KnowledgeMiner applicable to a wide range of real world problems and to one of the most effective modeling and prediction tools available.
  18.  
  19. INTRO2
  20. In this tutorial we will work on the COD concentration document located in the KnowledgeMiner folder. This document contains monthly observational data from the Osaka Bay to solve a water pollution problem. The COD concentration variable (COD - Chemical Oxygen Demand) will be used as an indicator of water pollution. So, we want to model and predict this variable (and other) to get an information on how the water quality will change in the next five month.
  21.  
  22. INTRO3
  23. To give you a better understanding on model self-organization, you will see in the following example animation how an optimal complex model will grow in an evolutionary process of combination and selection (knowledge extraction) out of a completely unknown relationship between output variable and chosen input variables (black box) .
  24.  
  25. THE DATA BASIS
  26. DB1
  27. The data basis is the main source for model building in KnowledgeMiner. Therefore, each KnowledgeMiner document consists of one data basis located in the 'Data: ' window. Only one document can be opened at a time.
  28.  
  29. DB2
  30. Do This
  31. <Format> "Body"
  32. If you have not already done, please open the document 'COD concentration' located in the KnowledgeMiner folder. If the Open menu item is dimmed, close the currently open document.
  33. If you need instructions on closing a document, click Huh? below.
  34.  
  35. DB3
  36. After opening a document the data basis is always visible in the 'Data:' window. The picture below describes the general construction of the data basis:
  37.  
  38.                   
  39.  
  40.  
  41.  
  42.  
  43.  
  44.  
  45.  
  46.  
  47.  
  48.  
  49.  
  50.  
  51.  
  52.  
  53.  
  54.  
  55.  
  56.  
  57.  
  58.  
  59. THE INFORMATION BASIS
  60. Intro IB
  61. The information basis contains the complete data set you choose to serve as the information source for model self-organization. Defining the information basis is the most important task you have to do before creating a model and should be done as most carefully as possible. Generally, you have to answer yourself the question 'By which input variables my output variable could be affected reasonably?'. Note, that selecting the information basis is only a pre-definition of feasabilities that any dependence between input variables and output variable might exist. It defines a set of variables, only a subset of really relevant variables will be selected from during model self-organization (knowledge extraction).
  62. In this section you will learn, how you define the information basis for modeling easily.
  63. If you want additional information about inductive learning modeling, click Huh? below.
  64.  
  65. IB1
  66. Do This
  67. Choose menu item Selection Mask On in the Table menu.
  68. This option will help you building the information basis by selecting corresponding cells.
  69.  
  70. IB2
  71. Do This
  72. To select an output variable, click in the first row of that variable (generally, the given name of the variable) you want to be modeled.
  73. Here we want to model the COD conc. variable.
  74. A "Y" in the head of the column indicates the selected variable as output variable.
  75.  
  76. For a picture about output variable selection, click Huh? below.
  77.  
  78.               
  79.  
  80.  
  81.  
  82.  
  83.  
  84.  
  85.  
  86.  
  87.  
  88.  
  89.  
  90.  
  91.  
  92. IB3
  93. Do This
  94. To select any combination of input variables and time lags hold down the Shift- or Command-key and click in a cell in the table. Generally, the column specifies the input variable and the row the time lag of the variable corresponding to the number shown on the left side of the table. At least two variables have to be selected.
  95. For instance, if you select two cells in the third column and the first and second row they would be interpreted as X2(t) and X2(t-1). In this case you would have specified the following information basis:
  96.         Y(t)=f(X2(t), X2(t-1)).
  97.  
  98. For a picture about input variables selection, click Huh? below.
  99.  
  100.               
  101.  
  102.  
  103.  
  104.  
  105.  
  106.  
  107.  
  108.  
  109.  
  110.  
  111.  
  112.  
  113.  
  114.  
  115. IB4
  116. You have learned, how you choose output and input variables by clicking in the corresponding cells in the table. Now, you are prepared to create a model. This is described in the next section.
  117.  
  118.  
  119.  
  120. TIME SERIES MODELS
  121. Intro
  122. In this section you will learn how you create a time series model and how you make predictions on it. You should have completed the previous sections related to data basis and defining the information basis for modeling.
  123.  
  124. TS1
  125. Do This
  126. Choose menu item Selection Mask On in the Table menu. If this menu item is not highlighted and replaced by the name Selection Mask Off, you are already working in this mode.
  127. This option will help you to define the information basis by selecting corresponding cells.
  128.  
  129. TS2
  130. Do This
  131. At first you have to select the output variable. Click in the first row of column X1 (respectively COD conc.) to mark it as our output variable.
  132. A "Y" in the head of the column indicates this variable as selected output variable.
  133.  
  134. For a picture on output variable selection, click Huh? below.
  135.  
  136.               
  137.  
  138.  
  139.  
  140.  
  141.  
  142.  
  143.  
  144.  
  145.  
  146.  
  147.  
  148.  
  149.  
  150. TS3
  151. Do This
  152. We may have decided in this case  to consider all lagged samples Y(t-n), n=1, 2, ..., 5, Try to select the corresponding cells in the table.
  153.  
  154. For a picture on correct selection, click Huh? below.
  155.  
  156.               
  157.  
  158.  
  159.  
  160.  
  161.  
  162.  
  163.  
  164.  
  165.  
  166.  
  167.  
  168.  
  169.  
  170.  
  171.  
  172.  
  173.  
  174. TS4
  175. Now, after selecting output and input variables, we are ready to create the time series model which is described in the next topic.
  176.  
  177. TS5
  178. Do This
  179. Choose the menu item Create Time Series Model... from the Modeling menu.
  180.  
  181. TS6
  182. Here you can get an overview on the considered output and input variables. Non-valid variable selections made previously in the table will be excluded automatically from the information basis.
  183.  
  184. TS7
  185. Do This
  186. Specify the number of data used as a learning and checking set for model synthetization beginning from the top of the table. The minimum data length is 6.
  187. Here we want to choose a length of 40.
  188.  
  189. TS8
  190. Do This
  191. If you have not specified the time lags in the table you can do it in this field. That is, if the field is not dimmed and enabled.
  192.  
  193. TS9
  194. Do This
  195. Select wether the model should be linear or nonlinear one. Since each partial model (Active Neuron) as well as the whole network structure will be synthesized and optimized automatically, choosing a nonlinear model not necessarily finally leads to a nonlinear network model. If the detected best model is a linear one, the algorithm will present this linear model as the most accurate.
  196.  
  197. TS10
  198. Here, the expected memory requirements of the modeling process for the first four layers are displayed. After changing the data length or lag time in the dialog, you can check the memory requirements again by clicking on the "Memory" string.
  199.  
  200. TS11
  201. You have learned, how you setup a few parameter in the dialog window. Now, you can start the modeling process by clicking the Modeling button in the dialog window.
  202.  
  203.  
  204. TIME SERIES MODELS - PREDICTIONS
  205. TS Pred1
  206. Now you have build your first time series model. 
  207. Time series models (or auto regressive models) can be identified in the Models menu by a '-AR', added to the name of the model. As you may have seen, immediately after finishing the modeling process the 'Graph: ' window appears to provide a visualization of the power of the model in comparision to the original process. You will also may have noticed that the modeling process stops itself without any pre-definition when it should has to stop.  That is, when the algorithm has synthesized an optimal complex model and it detects, it would begin to overfit the design data (learning and checking data set). This feature is one important advantage of KnowledgeMiner over deductive methods like statistical regression or Neural Networks.
  208.  
  209. TS Pred2
  210. Do This
  211. Not only a graphic representation of the model is immediately available: KnowledgeMiner also presents an analytical description of each model in its tree-like structure.
  212.  
  213. Choose the menu item Model Equation in the Window menu to have a look at the model equation. Additionally, you will find there reported the chosen heuristics for that model.
  214.  
  215. TS Pred3
  216. Do This
  217. In our example, we have the true data of the forecast horizon available which we want to use for model performance validation. These validation data need to be stored in the same column and below the design data. Therefore, you have to locate the corresponding first date (row) in the table. 
  218.  
  219. Scroll the 'Data:' window down until rows 40-55 are visible.
  220.  
  221. TS Pred4
  222. Do This
  223. Click now in row 48 of column X1 (our output variable). This cell contains the first true date of the forecast horizon.
  224.  
  225. For a picture, click Huh? below.
  226.  
  227.               
  228.  
  229.  
  230.  
  231.  
  232.  
  233.  
  234.  
  235.  
  236.  
  237.  
  238.  
  239.  
  240.  
  241.  
  242.  
  243.  
  244.  
  245.  
  246. TS Pred5
  247. Do This
  248. Choose the menu item Original Data Begin in This Row in the Table menu.
  249.  
  250. TS Pred6
  251. Do This
  252. To make a status quo prediction it is necessary that all cells of the forecast area in the table are empty. Otherwise, you would see in the 'Graph: ' window predicted values calculated on the alredy existing data  (which would be a one-step What-If prediction).
  253. Clear all red colored cells of the column X1 beginning at row 41 to row 45.
  254.  
  255. TS Pred7
  256. Do This
  257. Choose the menu item Predict Time Series... in the Modeling menu.
  258.  
  259. TS Pred8
  260. Do This
  261. Type a value for the forecast horizon you want to use. Here, please type a 5.
  262.  
  263. TS Pred9
  264. Do This
  265. We have true data of the forecast horizon available which we want to use for model performance validation.
  266. To feature this, click in this checkbox. Note, that if you check this item and there are no data or only less than the forecast horizon available, it will not affect the prediction itself.
  267.  
  268. TS Pred10
  269. Do This
  270. Click on the Prediction button to predict the variable. Predicted values are displayed in red color.
  271.  
  272.  
  273. Input-Output Models
  274. Static Input-Output Models
  275. Intro
  276. In this section you will learn how you create input-output models and how you make predictions on them. You should have completed the previous sections.
  277. We want to create a static input-output model of the COD concentration variable. Static models can be used to solve analysis, classification or diagnosis problems. They are independent from time and therefore have no time lags.
  278. In our example, we want consider as inputs the variables X2 to X6 .
  279.  
  280. SIOM1
  281. Do This
  282. At first, you have to select the output variable. 
  283. Click in the first row of column X1 (respectively COD conc.) to mark it as our output variable Y.
  284. A "Y" in the head of the column indicates this variable as selected output variable.
  285.  
  286. For a picture on output variable selection, click Huh? below.
  287.  
  288.               
  289.  
  290.  
  291.  
  292.  
  293.  
  294.  
  295.  
  296.  
  297.  
  298.  
  299.  
  300.  
  301. SIOM2
  302. Do This
  303. We have decided to consider all unlagged samples of X2 up to X6. 
  304. Try to select the corresponding cells in the table.
  305.  
  306. For a picture on correct selection, click Huh? below.
  307.  
  308.              
  309.  
  310.  
  311.  
  312.  
  313.  
  314.  
  315.  
  316.  
  317.  
  318. SIOM3
  319. Do This
  320. Choose the menu item Create Input-Output-
  321. Model... from the Modeling menu.
  322.  
  323. SIOM4
  324. Do This
  325. Specify the number of data used as a learning and checking set for model synthetization beginning from the top of the table. The minimum data length is 6.
  326. Here we want to choose a length of 40.
  327.  
  328. SIOM5
  329. Do This
  330. If you have not specified the time lags in the table, you can do it here. That is, if the field is not dimmed and enabled. Since we want to create a static model, type a  zero in this field.
  331.  
  332. SIOM6
  333. Do This
  334. This checkbox is only of interest, if you want to build a system of equations. You will learn how to create a system of equations later.
  335. For now, make sure that this checkbox is not checked.
  336.  
  337. SIOM7
  338. You have learned how you can setup a few parameter in the dialog window. Now, you can start the modeling process by clicking the Modeling button in the dialog window.
  339.  
  340.  
  341. Dynamic Input-Output Models
  342. Intro
  343. Now, we want to create a dynamic input-output model of the COD conc. variable. Dynamic models are used to model and predict the dynamic behavior of a time process, the evolution of a variable over time. 
  344. In our example, we want consider as input variables for modeling the unlagged samples Xm(t) (the static part) and the first lagged samples Xm(t-1) (the dynamic part) of the variables X2 to X6 (m=2, 3, ..., 6).
  345.  
  346. DIOM1
  347. Do This
  348. At first, you have to select the output variable. 
  349. Click in the first row of column X1 (respectively COD conc.) to mark it as our output variable Y.
  350. A "Y" in the head of the column indicates this variable as selected output variable.
  351.  
  352. For a picture on output variable selection, see at SIOM1.
  353.  
  354. DIOM2
  355. Do This
  356. Choose menu item Selection Mask On in the Table menu. If this menu item is not highlighted and replaced by the name Selection Mask Off, you are already working in this mode.
  357. This option will help you to define the information basis by selecting corresponding cells.
  358.  
  359. DIOM3
  360. Do This
  361. We have decided to consider all unlagged and the first lagged samples of  X2 to X6. 
  362. Try to select the corresponding cells in the table.
  363.  
  364. For a picture on correct selection, click Huh? below.
  365.  
  366.               
  367.  
  368.  
  369.  
  370.  
  371.  
  372.  
  373.  
  374.  
  375.  
  376.  
  377.  
  378.  
  379. DIOM4
  380. Do This
  381. Choose the menu item Create Input-Output-
  382. Model... from the Modeling menu.
  383.  
  384. DIOM5
  385. Do This
  386. The same dialog window was opened as earlier creating the static model. 
  387. Try to setup the dialog window.
  388.  
  389. If you need instructions on how setting up the dialog for modeling, have a look at SIOM4-SIOM6 again.
  390.  
  391. DIOM6
  392. Now you can start the modeling process by clicking the Modeling button in the dialog window. 
  393.  
  394.  
  395. Input-Output Models - Predictions
  396. Intro
  397. You have now created your first input-output model. Input-output models can be identified in the Models menu by their name whithout any suffix. Like time series models, input-output models are presented graphically and analytically by their model equation and the modeling process has stoped itself, too.
  398. In contrast to time series models, the output variable of input-output models is described by different input variables. This means, that to predict the output variable the data of the input variables must be available for the forecast horizon. These data can be obtained by time series models, other modeling techniques or they are assumptions or true values. Since the prediction results depend from these input data, this kind of prediction is called What-If prediction.
  399.  
  400. IOMPred1
  401. Do This
  402. In our example, we have the true data of the forecast horizon available which we want to use for model performance validation. These validation data need to be stored in the same column and below the design data. Therefore, you have to locate the corresponding first date (row) in the table. 
  403.  
  404. Scroll the 'Data:' window down until rows 40-55 are visible.
  405.  
  406. IOMPred2
  407. Do This
  408. Click now in row 48 of column X1 (our output variable). This cell contains the first true date of the forecast horizon.
  409.  
  410. For a picture, click Huh? below.
  411.  
  412.               
  413.  
  414.  
  415.  
  416.  
  417.  
  418.  
  419.  
  420.  
  421.  
  422.  
  423.  
  424.  
  425.  
  426.  
  427.  
  428.  
  429.  
  430. IOMPred3
  431. Do This
  432. Choose the menu item Original Data Begin in This Row in the Table menu.
  433.  
  434. IOMPred4
  435. Do This
  436. Clear all red colored cells of the column X1 beginning at row 41 to row 45.
  437.  
  438. If you need instructions on clearing existing data, click Huh? below.
  439.  
  440. IOMPred5
  441. Do This
  442. To make a what-if prediction for existing input data choose the menu item What-If Prediction... in the Modeling menu.
  443.  
  444. IOMPred6
  445. Do This
  446. Type a value for the forecast horizon you want to use. Here, please type a 5.
  447.  
  448. IOMPred7
  449. Do This
  450. We have true data of the forecast horizon available which we want to use for model performance validation.
  451. To feature this, click in this checkbox. Note, that if you check this item and there are no data or only less than the forecast horizon available, it will not affect the prediction itself.
  452.  
  453. IOMPred8
  454. Do This
  455. Check out this checkbox. 
  456. In this way, the predicted data will be placed in the table automatically since we have cleared the corresponding cells before. Existing data, however, will not be overwritten.
  457.  
  458. IOMPred9
  459. Do This
  460. Click on the Prediction button to predict the variable. Predicted values are displayed in red color.
  461.  
  462.  
  463. System of Equations - a Network of Input-Output Models
  464. Intro
  465. In this section you will learn how you can create and predict systems of equations as a more sophisticated way to rise up prediction accuracy or, in some cases, to get a prediction at all in a reasonably time. We have seen in the previous section that to make predictions on input-output models, forecast data for all input variables are needed. This is practically not important for static models. For dynamic models, however, this is an essential question to be able to predict time processes. Therefore, and because the data you may working on could be very short and noisy, systems of equations will be one way we recommend to solve real world problems such as analysis, prediction and classification of rather complex processes.
  466.  
  467. SYM1
  468. We want to create a predictable linear system of equations. We may have decided to consider the variables X1(t) ... X6(t) and their first and second lagged samples Xm(t-1), Xm(t-2) (m=1,2, ... , 6) to define the information basis. For systems of equations the selected output variable indicates only this variable which will be modeled first, followed by all other selected variables.
  469.  
  470. SYM2
  471. Do This
  472. Choose menu item Selection Mask On in the Table menu. If this menu item is not highlighted and replaced by the name Selection Mask Off, you are already working in this mode.
  473. This option will help you to define the information basis by selecting corresponding cells.
  474.  
  475. SYM3
  476. Do This
  477. Define the information basis in the known way. Remember, that we have decided to consider the variables X1 to X6 and their first and second lagged samples.
  478.  
  479. For a picture or instructions on defining the information basis, click Huh? below.
  480.  
  481.               
  482.  
  483.  
  484.  
  485.  
  486.  
  487.  
  488.  
  489.  
  490.  
  491.  
  492.  
  493.  
  494. SYM4
  495. Do This
  496. Choose the menu item Create Input-Output-
  497. Model... from the Modeling menu.
  498.  
  499. SYM5
  500. Do This
  501. Click in this checkbox to create a system of equations consisting of all selected variables. This system is applicable for stepwise short-term to long-term prediction of all output variables.
  502. Since we want to create a linear system turn the 'exclusively linear' radio button on.
  503.  
  504. SYM6
  505. Do This
  506. Setup the dialog and click the "Modeling" button to start the modeling process. 
  507. This process will take more or less time depending on the machine you are working on. Optionally, by clicking the Cancel button, you can skip this step and use the prepared system of equations further.
  508.  
  509.  
  510. System of Equations - Predictions
  511. Intro
  512. You have now build your first system of equations. System models can be identified in the Models menu by a '-S' , added to the name of the model.
  513. Using this system you are able to predict all variables simultaniously.
  514.  
  515. SYSPRED1
  516. Do This
  517. Make sure that the active model is a system model. The active model is checked by a checkmark in the Models menu. 
  518.  
  519. SYSPRED2
  520. Do This
  521. Before you can use a system for prediction you have to build a best system out of all possible systems. 
  522. Choose the menu item Best System Of Equations in the Modeling menu.
  523.  
  524. SYSPRED3
  525. You can see that that the system consists of two parts: identified and not identified variables of the system.
  526. Identified variables are those the corresponding model appears to be able to reflect significant relationships. Therefore, they are considered to be a state variable of the system (endogenous variable).
  527. Models of not identified variables, in contrast, appear to be not an internal part of the system either due to missing true state variables (not complete information basis) or due to true detection. Not identified variables are considered as exogenous variables and their prediction values are displayed in the table in orange color.
  528.  
  529. SYSPRED4
  530. Do This
  531. Clear all cells of column X1 to column X6 beginning at row 41 to row 45. For status-quo predictions all related cells need to be empty.
  532.  
  533. SYSPRED5
  534. Do This
  535. To make a long-term status quo prediction for all variables of the system choose the menu item Predict System... in the Modeling menu.
  536.  
  537. SYSPRED6
  538. Do This
  539. Type a value for the forecast horizon you want to predict the system.
  540. Here, please type a 5.
  541.  
  542. SYSPRED7
  543. Do This
  544. Click on the Prediction button to predict the system.
  545.  
  546. SYSPRED8
  547. Do This
  548. Now you can choose the menu item What-If-Prediction... in the Modeling menu to see the graph for the currently active model.
  549.  
  550.  
  551. The Model Base
  552. Intro
  553. Do This
  554. To view the contents of the model base, click in the Models menu.
  555.  
  556. The model base stores all created models. For each column Xn of the table a time-series model (suffix '-AR'), an input-output model (no suffix) and a system model (suffix '-S') can be stored simultaneously. A document can contain one system of equations. Each new created model will be added to the model base or, in cases a corresponding model already exists, will replace this model automatically.
  557. Only one model can be active at a time. This model is shown by a checkmark. All model-related features like viewing the model equation or the model graph or using a model for prediction are focused on the just active model. You can select a model by choosing its corresponding menu item.
  558.  
  559. MODELS1
  560. Do This
  561. Make the 'Graph:' window to the active window.
  562.  
  563. MODELS2
  564. Do This
  565. Choose the system model of the Filtered COD variable to make it the active model.
  566. Please note, that in the upper right the name of the active model is shown.
  567.  
  568. MODELS3
  569. Do This
  570. Alternatively, you can browse through the model base foreward or backward.
  571. To select the next model, click the right arrow button in the upper right.
  572.  
  573. MODELS4
  574. Do This
  575. Additionally and as far as possible, not only one best model but up to 3 best models will be created and stored in the model base after finishing each modeling process. This set of best models is stored separately in the model base for each model. It can be accessed through the submenu in the Models menu.
  576. Select the second best time-series model of the COD conc. variable.
  577.  
  578. MODELS5
  579. Do This
  580. Again, you can alternatively browse through the set of best models by clicking the corresponding buttons (up and down arrow buttons in the upper right).
  581. Note, that the number of the chosen best model is shown besides the name of the model.
  582. To select the next best model, click the up arrow button.
  583. Note, that the number of the chosen best model is shown besides the name of the model.
  584.  
  585. FINISH
  586. Congratulations! You have finished the tutorial successfully.
  587.